干货|携程AI推理性能的自动化优化实践

作者：魔豆从容_368 | 来源：互联网 | 2023-10-16 14:03

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰

作者简介

携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品&＃xff0c;其中性能优化组为AI模型提供全方位的优化方案&＃xff0c;提升推理性能降低成本&＃xff0c;实现AI技术在旅游场景的成功落地。

一、背景

近年来&＃xff0c;人工智能逐渐在安防&＃xff0c;教育&＃xff0c;医疗和旅游等工业和生活场景中落地开花。在携程旅游业务上&＃xff0c;AI技术同样广泛覆盖了多个旅游产品和旅游服务领域&＃xff0c;携程度假AI研发根据旅游的特定场景和业务需求&＃xff0c;将自然语言处理&＃xff0c;机器翻译&＃xff0c;计算机视觉&＃xff0c;搜索排序等主流AI技术成功应用于旅游度假的多个业务线&＃xff0c;例如自由行&＃xff0c;跟团游&＃xff0c;签证&＃xff0c;玩乐和租车等。

从技术角度&＃xff0c;为了适应不同的业务场景需求&＃xff0c;涉及到多种AI技术&＃xff0c;包括传统机器学习&＃xff0c;卷积神经网络&＃xff0c;Transformer等深度学习模型结构&＃xff0c;以及知识图谱和图神经网络等技术领域。同时&＃xff0c;为了充分挖掘AI技术的优势&＃xff0c;模型设计复杂度日渐提升&＃xff0c;包括模型深度&＃xff0c;宽度以及结构复杂度等各个维度&＃xff0c;计算量的增大使得AI推理性能瓶颈日益凸显&＃xff0c;尤其是实时性的业务需求对推理速度要求更高。为了追求最佳推理性能&＃xff0c;往往需要手动进行逐个优化&＃xff0c;涉及的开发&＃xff0c;部署和沟通成本都很高。主要问题集中在&＃xff1a;

模型结构种类多&＃xff0c;性能瓶颈差异较大&＃xff0c;适用的优化方法各有不同&＃xff0c;手动优化成本高&＃xff1b;
优化方法众多&＃xff0c;自上而下&＃xff0c;涉及多种模型压缩方式&＃xff0c;系统级&＃xff0c;运行时优化等&＃xff0c;手动优化门槛高&＃xff1b;
逐个手动优化&＃xff0c;可推广性差&＃xff0c;技术覆盖面有限&＃xff1b;
硬件平台的差异&＃xff0c;需要针对性调优&＃xff0c;导致优化的人力成本和部署成本都很高&＃xff1b;
新模型的发布和迭代&＃xff0c;需要应用优化方法&＃xff0c;涉及较高的沟通和接入成本&＃xff0c;同时带来了性能的不稳定性&＃xff1b;
模型压缩技术对不同模型的优化效果有所差异&＃xff0c;可能需要进行模型的再训练&＃xff0c;训练和数据准备流程较长&＃xff0c;效率低下&＃xff1b;

因此&＃xff0c;为了降低优化&＃xff0c;部署和迭代成本&＃xff0c;提高工作效率&＃xff0c;并保证性能稳定&＃xff0c;我们尝试搭建模型自动化优化平台&＃xff0c;旨在为算法模型提供更全面易用&＃xff0c;稳定性更好&＃xff0c;使用和维护成本更低的优化解决方案。

二、优化平台的主要框架

从性能优化方法论的角度&＃xff0c;无论是自动优化还是手动优化&＃xff0c;主要关注以下两大方向&＃xff1a;

降低算法复杂度&＃xff1a;可通过调整或简化模型结构&＃xff0c;或者保持结构不变&＃xff0c;改进算法实现效率&＃xff1b;
充分发挥软硬件性能&＃xff1a;模型结构和算法不变&＃xff0c;优化软件执行效率&＃xff0c;使用硬件优势特征&＃xff0c;最大化硬件执行效率&＃xff1b;

围绕这两大优化方向以及人工智能的主流技术方向&＃xff0c;优化平台的整体架构层自下而上可以划分为&＃xff1a;

硬件平台和操作系统层&＃xff0c;包含x86架构的CPU&＃xff0c;GPU&＃xff0c;ARM&＃xff0c;FPGA等多种平台&＃xff0c;操作系统主要是Linux OS&＃xff1b;
引擎框架层&＃xff0c;主要是Tensorflow&＃xff0c;Pytorch等人工智能主流框架&＃xff1b;
推理优化层&＃xff0c;主要是由我们结合业务场景和实际需求进行自主研发的优化技术&＃xff0c;包含高性能算子库&＃xff0c;图优化和修改工具以及量化蒸馏等模型压缩模块&＃xff1b;
算法模型&＃xff1a;包含业界常用模型&＃xff0c;例如以卷积为主要结构的CV模型&＃xff0c;Resnet&＃xff0c;GoogleNet&＃xff0c;YOLO等&＃xff1b;以Transformer为主要结构的NLP模型Bert&＃xff0c;Albert等&＃xff1b;
应用场景&＃xff1a;主要体现在旅游场景中的实际应用&＃xff0c;例如智能客服平台&＃xff0c;机器翻译&＃xff0c;搜索排序等应用。

图1 模型平台的框架组成

三、自动化优化流程

优化平台的搭建能够系统有效地将优化技术整合起来&＃xff0c;并快速应用于实际需求&＃xff0c;但是如果不实现自动化优化&＃xff0c;优化效率比较低&＃xff0c;部署和迭代成本&＃xff0c;沟通和接入成本高。因此我们建立了自动化优化流程&＃xff0c;将所支持的优化技术涵盖在内&＃xff0c;结合模型训练平台&＃xff0c;数据标注平台&＃xff0c;从模型设计&＃xff0c;模型训练到模型推理优化&＃xff0c;模型部署全链路&＃xff0c;实现零介入无感知的优化效果&＃xff0c;大大提升工作效率以及整体优化效果的稳定性。

图2所示为数据平台&＃xff0c;模型训练平台&＃xff0c;模型优化和部署的大概流程。具体有哪些优化手段&＃xff0c;如何进行自动化实现的流程细节如图3所示。

图2 模型自动化优化实现框架

图3 自动优化实现的基本流程

四、功能模块

自动化优化平台的主要功能模块分四部分&＃xff1a;

高性能算子库&＃xff0c;包括算子重写&＃xff0c;算子合并等多个优化&＃xff0c;支持attention&＃xff0c;softmax&＃xff0c;Layer norm等多个常用算子&＃xff1b;
计算图优化&＃xff0c;主要进行计算图搜索&＃xff0c;修改替换模型图结构&＃xff0c;合并生成新的模型文件进行推理部署&＃xff1b;同时包含常用的图优化和修改工具&＃xff1b;
模型压缩模块&＃xff0c;包括模型静态和动态量化&＃xff0c;模型剪枝和蒸馏等&＃xff1b;
模型部署优化&＃xff0c;主要提供部署的优化方案&＃xff0c;包括部署设计&＃xff0c;运行时环境配置等。

图4 模型优化平台基本模块

4.1 高性能算子库

该模块主要实现了常用的算子以及激活函数&＃xff0c;包含基础算子&＃xff0c;例如卷积&＃xff0c;全连接层&＃xff0c;batch norm&＃xff0c;softmax等等以及合并后的经典的模型结构&＃xff0c;例如transformer encoder&＃xff0c;decoder等&＃xff0c;基于tensorflow实现&＃xff0c;采用c&＃43;&＃43;实现&＃xff0c;支持CPU和GPU平台的优化。

具体的优化方法涵盖了&＃xff1a;

算法改进&＃xff0c;例如卷积算法的实现&＃xff0c;将im2col和winograd卷积相结合&＃xff0c;针对不同卷积核大小自适应使用最佳算法&＃xff0c;实现最快的速度&＃xff1b;

内存重构&＃xff0c;以BERT模型为例&＃xff0c;最核心也是最耗时的计算模块之一就是多头自注意力机制multi-head self-attention&＃xff0c;包含了大量的矩阵乘法计算&＃xff0c;根据算法原理&＃xff0c;包括query层&＃xff0c;key层和value层的获取&＃xff0c;query和key点乘等等&＃xff0c;更重要的是当前的tensorflow算法实现包含了大量的行列变换操作&＃xff08;transpose&＃xff09;&＃xff0c;transpose带来大量的内存访问开销&＃xff0c;这些问题可以通过内存重构来避免。
同时很多矩阵乘法实现可以通过批量矩阵乘法调用提升计算效率&＃xff0c;从而带来运行速度的提升。如下图5所示&＃xff0c;self-attention机制原始实现流程包含了三次冗余的transpose操作&＃xff0c;T&＃xff08;a&＃xff09;表示张量a的transpose形式。通过对内存重构可以避免这三次transpose操作。如图6所示&＃xff0c;优化后的计算流程不包含transpose。

图5 Self-attention原始实现流程

图6 self-attention优化后实现流程

二者对比&＃xff0c;可以明显看出&＃xff0c;优化后减少了4次transpose操作&＃xff0c;也就是减少了内存访问的开销&＃xff0c;同时对于矩阵乘法&＃xff0c;调用批量矩阵乘法替代单个矩阵乘法操作&＃xff0c;效率更高。

Intrinsic指令集优化&＃xff0c;例如在CPU平台使用合适的向量化指令AVX512以及专门针对AI的VNNI指令等&＃xff1b;

算子融合&＃xff0c;以transformer为例&＃xff0c;每一层包含大量的零散算子&＃xff0c;包括self-Attention&＃xff0c;GELU激活函数&＃xff0c;归一化Layer Normalization算子等多个零散算子&＃xff0c;为了减少数据访问开销&＃xff0c;将多个算子进行融合&＃xff0c;实现新的GPU kernel。通过算子合并&＃xff0c;算子数量减少约90%&＃xff0c;模型涉及内存搬移的操作去除率100%&＃xff0c;90%的时间集中在核心计算的kernel launcher。如图7所示。

图7 算子融合举例

4.2 模型压缩

模型压缩是提升推理性能的另一个有效手段&＃xff0c;主要是指在算法层面上的模型优化&＃xff0c;保证精度的前提下&＃xff0c;通过合理的降低模型结构或者参数量&＃xff0c;从而实现减少整个模型计算量的目的。

模型压缩的主要作用有&＃xff1a;

简化模型结构&＃xff0c;降低计算复杂度&＃xff0c;提升推理速度
减少模型参数和模型尺寸&＃xff0c;降低对内存的占用&＃xff1b;

宏观上来讲&＃xff0c;当前的优化平台支持的模型压缩方法有模型蒸馏&＃xff0c;模型剪枝&＃xff0c;低精度量化等。

4.2.1 模型蒸馏

模型蒸馏采用的是迁移学习&＃xff0c;通过预先训练好的复杂模型&＃xff08;Teacher model&＃xff09;的输出作为监督信号去训练另外一个简单的学生网络&＃xff08;Student Model&＃xff09;&＃xff0c;从而实现对模型的简化&＃xff0c;减少模型参数。模型蒸馏普遍性很强&＃xff0c;可有效提升小模型准确率&＃xff0c;但是调参相对困难&＃xff0c;主要的核心的问题包括&＃xff0c;如何选择特征层如何设计损失函数&＃xff0c;学生模型的设计和数据集的选择等等。图8是我们压缩框架中实现的对Transformer的decoder模型的蒸馏实现。

图8 Transformer模型蒸馏

总损失函数构成&＃xff1a;

其中α和β分别表示相应的损失值权重系数&＃xff0c;α∈(0,1]&＃xff0c;β∈R&＃xff0c;Lsoft是 Teacher网络的输出与Student网络模型输出的损失值&＃xff0c;Lhard - 训练数据语料真实标签与Student网络模型输出的损失值&＃xff0c;LAT_FMT - Teacher和Student网络模型的Decoder 的中间输出内容损失值&＃xff0c;采用逐级分层蒸馏的方法&＃xff0c;最终推理速度加速比达到2倍&＃xff0c;精度损失BLEU值在可接受范围内&＃xff08;4%&＃xff09;。

4.2.2 低精度量化

低精度量化更多是从计算机硬件的设计角度&＃xff0c;修改数据类型&＃xff0c;降低数据精度&＃xff0c;从而进行加速&＃xff0c;依赖于硬件实现。量化的方式也包含多种&＃xff0c;训练后量化&＃xff08;PTQ post training quantization&＃xff09;&＃xff0c;训练时量化&＃xff08;QAT&＃xff0c;quantization aware traning&＃xff09;等。

目前我们优化平台支持float16和int8&＃xff0c;其中int8量化只支持PTQ方式&＃xff0c;一般情况下&＃xff0c;为了保证模型精度&＃xff0c;采用int8量化需要对量化后的模型校准&＃xff0c;校准方式实现依赖于复杂的数学算法&＃xff0c;目前较常用的是KL散度&＃xff0c;对于CV模型&＃xff0c;精度损失可接受。对于基于Transformer的NLP模型&＃xff0c;精度损失较大&＃xff0c;我们目前只支持GPU平台的float16实现。相比于float32&＃xff0c;存储空间和带宽减半&＃xff0c;精度几乎无损失&＃xff0c;吞吐提升可达3倍。

4.2.3 模型剪枝

剪枝的主要思想是将权重矩阵中相对“不重要”的权值剔除&＃xff0c;然后再对网络进行微调&＃xff1b;方法简单&＃xff0c;压缩效果可控&＃xff0c;但是在剪枝粒度和方法选择需要认为定义规则&＃xff0c;而且非结构化的剪枝效果需要依赖于硬件平台实现。模型剪枝在计算机视觉领域广泛使用&＃xff0c;并取得了不错的效果。

图9举例实现了一种典型的结构化剪枝的方法[4]。我们针对CV模型&＃xff0c;在原始模型中加入batch_normal层&＃xff0c;对batch_normal的参考论文2&＃xff1a;ChannelPruning for Accelerating Very Deep Neural Networks论文中提出利用channel进行剪枝&＃xff0c;实验如下&＃xff1a;在超分辨率的实验中&＃xff0c;考虑在原始模型中加入batch_normal层&＃xff0c;然后对batch_nomal的α值做正则化&＃xff0c;最后利用该值作为依据进行剪枝&＃xff0c;对训练好的模型中的batch_normal层的参数α进行分析&＃xff0c;针对不同的卷积模型应用同样的方式&＃xff0c;发现有些模型有近一半的参数在1e-5数量级&＃xff0c;此外同一层中的分布方差极小&＃xff0c;据此对模型进行通道级别的剪枝并进行fine tune训练&＃xff0c;剪枝效果明显&＃xff0c;模型大小减少到原来的1/4&＃xff0c;精度不变的前提下&＃xff0c;加速比可达4倍。而对于yolov3模型&＃xff0c;大部分参数差异不大&＃xff08;MAP降低2%&＃xff09;&＃xff0c;可剪掉的有限&＃xff0c;所以为了保持精度&＃xff0c;参数量减半&＃xff0c;加速比1.5x左右。

图9 模型剪枝实例

4.3 接口设计

模型优化平台采用即插即用的模块化设计&＃xff0c;可无缝对接模型训练平台&＃xff0c;模型发布平台等。

训练平台的调用和反馈&＃xff1a;无缝对接训练平台&＃xff0c;python接口调用或者web服务接口&＃xff1b;如果需要重新训练&＃xff0c;向训练平台申请接口&＃xff1b;
优化结果的接口提供&＃xff1a;支持*.pb格式的模型输出&＃xff1b;

具体使用方式如图10和图11所示。

图10 高性能算子库的调用

图11给出了模型压缩模块的调用方式。

图11 模型压缩模块调用

五、优化成果

以实际应用机器翻译的Transformer模型为例&＃xff0c;所测试平台为CPU: Intel(R) Xeon(R) Silver 4210CPU &＃64; 2.20GHz; GPU&＃xff1a;Nvidia T4&＃xff0c;以固定算例的平均响应延迟为测试数据&＃xff0c;优化后和优化前的加速比如下图12所示。

其中&＃xff0c;原始性能基于tensorflow1.14为测试基准&＃xff0c;在GPU平台框架层优化和编译运行时等多层优化实现&＃xff0c;图13是Transformer翻译模型基于T4平台使用模型压缩和高性能算子库优化之后的对比结果&＃xff0c;图中给出的是token长度为64&＃xff0c;不同batch大小时的延迟和吞吐提升比例&＃xff0c;实际中token越大&＃xff0c;float16的优势越明显。

图12

图13

基于CPU硬件平台&＃xff0c;针对CV和NLP模型&＃xff08;例如yolov3&＃xff0c;bert和albert等&＃xff09;&＃xff0c;也取得了不错的优化效果&＃xff0c;延迟加速比最高达到5倍以上。

六、未来展望

AI优化的潜力和需求很大&＃xff0c;因为AI理论和模型的日益完善&＃xff0c;应用场景对模型精度等推理服务质量的更高要求&＃xff0c;必然使得模型结构和计算复杂度越来越高&＃xff0c;对推理服务的性能需求只会有增无减。从成本和效率多个角度考虑&＃xff0c;自动优化是必然趋势&＃xff0c;并且业界也都陆续开展了相关研究&＃xff0c;取得了一些进展。

依旧从两方面来看&＃xff0c;同样是基于自动化优化这个大方向&＃xff0c;算子优化等系统级优化最终都会通过tvm等AI编译器实现&＃xff0c;而模型压缩则侧重于使用AutoML的思想&＃xff0c;基于当前平台和实际需求&＃xff0c;通过结构搜索找到符合要求的最简化的网络。当然&＃xff0c;当前的蒸馏&＃xff0c;剪枝等传统压缩方法也可以跟AutoML的思想相结合&＃xff0c;同样能够高效地实现压缩效果。

因此&＃xff0c;我们的自动化优化平台也正是基于自动化优化的思路&＃xff0c;综合考虑业务场景需求&＃xff0c;参考业界更先进的优化技术&＃xff0c;为旅游场景的AI模型带来更加高效的优化方案&＃xff0c;推动AI技术在旅游业务更好落地。

参考文献&＃xff1a;

[1].Jiao X, Yin Y, Shang L, et al. Tinybert: Distilling bert for natural languageunderstanding[J]. arXiv preprint arXiv:1909.10351, 2019.

[2].Sun S, Cheng Y, Gan Z, et al. Patient knowledge distillation for bert modelcompression[J]. arXiv preprint arXiv:1908.09355, 2019.

[3].https://on-demand.gputechconf.com/gtc-cn/2019/pdf/CN9432/presentation.pdf

[4].Zhuang Liu, Jianguo Li, Zhiqiang Shen, GaoHuang, Shoumeng Yan, Changshui Zhang; Learning Efficient Convolutional Networksthrough Network Slimming &＃xff0c;Proceedings of the IEEE International Conference onComputer Vision (ICCV), 2017, pp. 2736-2744

[5] AshishVaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan NGomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. arXivpreprint arXiv:1706.03762, 2017.

[6]Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectionaltransformers for language understanding[J]. arXiv preprint arXiv:1810.04805,2018.

团队招聘信息

我们是携程度假AI研发团队&＃xff0c;致力于为携程旅游事业部提供丰富的AI技术产品及优化工作&＃xff0c;持续优化用户体验&＃xff0c;提升效率。

在度假AI研发&＃xff0c;你可以学习行业内前沿的AI算法知识&＃xff0c;从算法到建模&＃xff0c;到优化加速&＃xff0c;到落地应用&＃xff0c;经历完整的AI研发流程&＃xff0c;同时为全球旅行者带来更好的旅游服务体验。

如果你热爱技术&＃xff0c;并渴望不断进步&＃xff0c;度假AI研发团队期待与你一同前行。目前我们有语音算法工程师&＃xff0c;算法优化工程师等职位期待你的加入。简历投递邮箱&＃xff1a;tech&＃64;trip.com&＃xff0c;邮件标题:【姓名】-【度假AI研发】- 【职位】。

【推荐阅读】

弱监督学习框架 Snorkel 在大规模文本数据集"自动标注"任务中的实践
NLP在携程机票人工客服会话分类中的应用
10分钟给上万客服排好班&＃xff0c;携程大规模客服排班算法实践
携程酒店推荐模型优化

“携程技术”公众号

分享&＃xff0c;交流&＃xff0c;成长

推荐阅读

python
吴恩达推出TensorFlow实践课程，Python基础即可入门，四个月掌握核心技能

量子位报道，deeplearning.ai最新发布了TensorFlow实践课程，适合希望使用TensorFlow开发AI应用的学习者。该课程涵盖机器学习模型构建、图像识别、自然语言处理及时间序列预测等多个方面。 ... [详细]

蜡笔小新 2024-12-08 17:26:10
int
2017年人工智能领域的十大里程碑事件回顾

随着2018年的临近，我们一同回顾过去一年中人工智能领域的重要进展。这一年，无论是政策层面的支持，还是技术上的突破，都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]

蜡笔小新 2024-12-16 17:59:16
search
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新 2024-12-07 14:28:06
ip
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
ip
视觉图像的生成机制与英文术语解析

近期，Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机（MLP）在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制，并解析了相关技术术语，为理解视觉图像生成提供了新的视角和方法。 ... [详细]

蜡笔小新 2024-10-30 09:47:50
lua
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
ip
英特尔推出第三代至强可扩展处理器及傲腾持久内存，AI性能显著提升

英特尔在数据创新峰会上发布了第三代至强可扩展处理器和第二代傲腾持久内存，全面增强AI能力和系统性能。 ... [详细]

蜡笔小新 2024-11-17 13:07:14
ip
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
ip
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
int
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
ip
黑客如何利用AI在暗网重建你的数字身份

随着技术的发展，黑客开始利用AI技术在暗网中创建用户的‘数字孪生’，这一现象引起了安全专家的高度关注。 ... [详细]

蜡笔小新 2024-12-12 17:45:26
php
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
python
解决PyCharm中安装PyTorch深度学习d2l包的问题

本文详细介绍了如何在PyCharm中成功安装用于PyTorch深度学习的d2l包，包括环境配置、安装步骤及常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-19 14:19:22
copy
CART决策树与随机森林详解

本文深入探讨了CART（分类与回归树）的基本原理及其在随机森林中的应用。重点介绍了CART的分裂准则、防止过拟合的方法、处理样本不平衡的策略以及其在回归问题中的应用。此外，还详细解释了随机森林的构建过程、样本均衡处理、OOB估计及特征重要性的计算。 ... [详细]

蜡笔小新 2024-12-16 16:54:15
int
智慧城市建设现状及未来趋势

随着新基建政策的推进及‘十四五’规划的实施，我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型，促进数字政府建设，新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计，以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]

蜡笔小新 2024-12-16 16:43:21

魔豆从容_368

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

干货|携程AI推理性能的自动化优化实践

10分钟给上万客服排好班&＃xff0c;携程大规模客服排班算法实践

携程酒店推荐模型优化